fin: subd f2, f1, f3

**Ingeniería de Computadores 29 de junio 2*018* Nombre: NIF/NIE:**

**Grupo:**

**a) (1.5 ptos) Planificar las instrucciones utilizando una tabla como la siguiente hasta la**

**primera iteración del bucle (sin realizar el salto). Suponer que inicialmente r1=0 y** 12=100

**inst | IF 1 ID/ISS | EX**

**ROB**

**WB | Comentario**

**Normas de realización:** - Incluir el nombre y el NIF/NIE en **todas las hojas utilizadas. - Todas las respuestas han de ser correctamente detalladas y razonadas.** - Las **respuestas deben estar escritas con boligrafo negro o azul.** - Recuadre e**n su caso los resultados de los ejercicios**

**b) (0.5 ptos) Realizar una traza de ejecución del código, mostrando el contenido de la**

**BTB, (BTB inicialmente vacía) para todas las iteraciones del bucle.**

**Dir salto**

**Dir destino**

**Bits predicción**

**Pregunta 1** (1.25 ptos) Contesta a las siguientes preguntas:

a) (0.75 pto) Explica brevem**ente las técnicas que conoces para solventar los riesgos de**

dependencia de datos en las máquina**s superescalares.** b) (0.5 ptos) Explica brevemente **las estructuras que conoces para gestionar los saltos**

c) (0.2**5 ptos) ¿Existe alguna penalización en la e**jecución del código? Si es así, indica con

**que instrucción y cuándo** d) (0.25 ptos) Determinar el número de ciclos que tardaría en ejecutarse el código

**suponiendo que la instrucción de salto se puede detectar en IF**

**Pregunta** 2 (2.5 ptos) Suponer un computador superescalar q**ue dispone un buffer de reorden,** que permite resolver los riesgos WAR Y WAW, y **una ventana de instrucciones con un número** de entradas suficiente. El procesador es capaz de decodifica**r, emitir y completar 3 instrucciones** por ciclo. Además, la emisión y la finalización de las instru**cciones puede ser desordenada pero** no dispone de unidad de adelantamiento.

Salia Para las tareas de ejecución, se dispone de las siguientes unidades segmentadas: 3 FP

No salta mul/div (6c), 3 FP add (3C), 3 ALU int (1) y

Prediccion:

Prediccion: 3 load/store *(*7). Finalmente, se dispone de

Salta

\*Salta"

Salta un predictor de saltos dinámico que utiliza

Salta:

No salta BTB de 4 entradas y 2 bits de predicción.

No salta Cuando se añade una nueva entrada en el

Prediccion:

**( Prediccion: *D*** "No salla

"No salia" BTB, su primera predicción siempre sería

Salta de estado A (salto efectivo).

**Pregunta 3** (1.25 pto) Suponer que un computador SMP de **4 procesadores utiliza el protocolo MESI para controlar l**a coherencia de datos en las cachés. Los bloques de cachés son de 2 **palabras. La política de r**eemplazo de caché es LRU (least recently used**). Las cachés tienen solamente** 2 bloques. En un momento dado, los procesadores ejecutan las siguientes referencias: **P1:READ 2 P2:WRITE**\_2(8) P1:READ\_2 P3:WRITE\_8(5) P4:WRITE\_8(3) P1:RE*A*D\_8 (WRITE\_M(N) significa escribe el valor N en la posición M). El contenido inicial es el siguiente

**P2**

**P3**

**Cachés P1 1 oTM**

-6

**9**

**10**

3

3

*0*

4

12

-6

No salta

En el computador se ejecuta el siguiente fragmento de programa:

*Figura 1: Ejercicio 2*

**Memoria** Direcciónn Dato

**4**

1 0

2 -6

**13**

3 4

**5** 9

**6** 10

**7** -4

**8** 3

**9** 2

**10** 3

Indica esquemáticamente por cada acceso y para cada procesador co**mo cambian las cachés y la** memoria principal. Indica, además, si se produce fallo de caché, el tipo y la**s variaciones de** estado de los bloques (explicando el motivo)

; ri almacena la dirección de a ; r2 **almacena la dirección de b**

addi r3, r1, #80 ; condic**ion de final** addi ri, r1, **#8 ; inicialización de los indices** addi r2, r2, #8 ; addi r5, r1, #3;

ld fo, coef ; c**argar coeficiente** loop: ld f2,-8(r1) ; cargar a[i-1]

ld f4, (ri) ; c**argar a[i]** beqz r5, fin muld f8, f2, fe ; a[i-1]\*coef divd f9, f2, fo ; multd f9, f2, fo ; addd f4, f8, f4 ; a[i-1] \*coef + a[i] sd 0(r2), 14 ; **almacenar b[i] addi ri, r1, #8 ; incrementar indices** addi r2, r2, #8 subi r5, r5, #1 slt r4, r1, r3 bnez r4, loop

+ 8 +9

**Pregunta 4 *(*2 ptos)**

a) (1.0 pto) S**e pretende comparar dos redes de computa**dores de distinta topologia,

concretamente una malla 3D con un toro 2D. Siendo el resto de **parámetros de sendas redes idéntico, a partir de qué número de procesadores es mejor el ancho de banda de**

**la bisección en un ca**so que en el otro? b) *(*0.75 ptos) Suponga que dispone de un **multicomputador cuya red de interconexión es**

una red hipercubo 4-di**mensional. En ella se está ejecutando una aplicación paralela que realiza comunicaciones con los nodos vecinos siguiendo el siguiente esquema de probabilidad:** comunica con nodo**s adyacentes con probabilidad de 0.5, con nodos a distancia 2 con** 0.3 y con nodos a distancia 3, 0.2. Es decir: P(distancia=1) = 0.5, P(dis**tancia=2) =** 0.3. P(distancia=3) = 0.2.

¿Cuál es la distancia media de la aplicación? c) (0.25 ptos) ¿Cuál es la diferencia entre p**rocesamiento distribuido y paralelo? Ponga**

ejemplos.

**Pregunta** (3 ptos)

La figura siguiente representa el grafo de depen**dencias entre tareas para una cierta aplicación.** Cada nodo represe**nta una tarea en la que se especifica la fracción de tiempo de ejecución** secuencial que la apl**icación tarda en ejecutarla. Suponiendo un tiempo de ejecución secuencial** de 100 segundos, que **las tareas no se pueden dividir en otras de menor granularidad y que el** tiempo de comunicación es despreciable obtenga: (1) el **mejor tiempo de ejecución en paralelo,** (2) la **mejor ganancia** en velocidad, (3**) eficiencia de la ejecución paralela si dispone de:**

**a) 4 nodos** b) 2 nodos

**Importante: Razone y explique cada paso de su resolución. Recuadre cada uno de los 3** resultados en a) y b).

**JO**

10%

**169**

118

**14%**

350

OSO

**JO**

109

*Figura 2: Ejercicio 4*